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基于 加 权 基 因 共 表达 网 络 和 癌症 基因 组 图 谱 临 床 数据 分 
析 并 鉴定 肝 细 胞 癌 的 Hub 基因 研究 
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[HE] BS 肝 细 胞 癌 HCC) 是 全 球 常见 的 癌症 相关 死亡 的 第 三 大 原因 ,， 约 占 所 有 原 发 性 肝癌 病例 的 
90%， 其 复发 率 和 死亡 率 较 高 ， 目 前 发 生 的 分 子 机 制 仍 不 清楚 。 目 的 ”探索 HCC 潜在 的 分 子 机 制 ， 发 掘 新 的 生物 标志 
物 。 方 法 “从 GEO 数据 库 中 下 载 基 因 表 达 谱 GSE62232， 从 TCGA 数据 库 下 载 RNA-seq 表达 数据 和 临床 相关 信息 
通过 差异 基因 表达 分 析 正 常 肝脏 组 织 与 HCC 组织 的 差异 基因 ; 对 差异 表达 基因 进行 富 集 分 析 ; 基于 TCGA 中 HCC 和 
GSE62232 的 基因 表达 数据 概况 ， 使 用 WGCNA R 包 建 立 共 表达 网 络 ， 进 行 加 权 基 因 共 表达 网 络 分 析 ( WGCNA ) , 
选择 具有 临床 意义 的 模块 ， 并 筛选 候选 Hub 基因 ; 进一步 分 析 候选 Hub 基因 在 HCC 组 织 和 正常 肝脏 组 织 显著 差异 表 
达 、 与 HCC 患者 总 体 生存 期 和 无 病 生存 期 是 否 显 著 相 关 ， 最 终 确定 Hub 基因 ; 通过 人 类 蛋白质 图 谱 数 据 库 对 Hub 者 
因 和 蛋白 表达 进行 验证 。 结 果 ”本 人 研究 的 基因 表达 数据 来 自 50 个 正常 肝脏 组 织 样本 和 373 个 HCC 组 织 样本 。 通 过 差异 
因 表达 分 析 发 现 7 230 个 在 HCC 和 正常 肝脏 组 织 之 间 差异 表达 的 基因 (HCC 中 3 691 个 上 调 基 因 和 3 539 个 下 调 基 

) 。 富 集 分 析 表 明 ， 上 调 的 差异 表达 基因 主要 参与 细胞 周期 调控 和 有 丝 分 裂 过 程 ; 下 调 的 差异 表达 基因 主要 参与 小 
分 子 代 谢 和 有 机 酸 代 谢 等 过 程 。WGCNA 确定 了 19 个 与 HCC 患者 临床 特征 相关 基因 模块 ， 通 过 分 析 模 块 与 临床 特征 
之 间 的 关系 ， 和 筛选 出 青色 模块 和 紫色 模块 。 青 色 模 块 基因 中 同时 与 患者 总 生存 期 和 无 病 生 存 期 强烈 相关 的 前 两 个 基因 
为 VPS45 和 FAM189B; 紫色 模块 基因 中 同时 与 患者 总 生存 期 和 无 病 生存 期 强烈 相关 的 前 两 个 基因 分 别 为 CLEC1B 和 
FCN3， 因 此 将 VPS45、FAM189B、CLEC1B 和 FCN3 确定 为 最 终 的 Hub 基因 。 人 类 和 蛋 白质 图 谱 数 据 库 免疫 组 织 化 学 染 
色 显 示 : VPS45 和 FAM189B 在 HCC 组 织 中 的 表达 高 于 正常 肝脏 组 织 ，FCN3 在 HCC 组 织 中 的 表达 低 于 正常 肝脏 组 织 ， 
CLEC1B 在 HCC 组 织 和 正常 肝脏 组 织 中 表达 差异 不 明显 。 结 论 ”初步 确定 VPS45、FAM189B、CLEC1B 和 FCN3 可 能 
是 HCC 的 新 型 潜在 生物 标志 物 ， 这 些 Hub 基因 可 能 为 HCC 的 靶 向 治疗 提供 理论 基础 。 

【关键 词 】 肝 细 胞 癌 ; 加 权 基 因 共 表达 网 络 分 析 ; Hub 基因 ; 分 子 靶 向 治疗 ; VPS45; FAM189B; CLECIB; 
FCN3 
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[ Abstract] Background Hepatocellular carcinoma ( HCC ) is the third leading cause of common cancer-related 
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mortality globally, accounting for approximately 90% of all primary liver cancer cases. Its recurrence and mortality rates are 
high, with the underlying molecular mechanisms remaining unclear. Objective To explore potential molecular mechanisms 
of HCC and explore novel biomarkers. Methods Gene expression profile GSE62232 was retrieved from the GEO database, 
RNA-seq expression data and clinical information were retrieved from TCGA database, differential gene expression analysis was 
conducted between normal liver tissue and HCC tissue. Enrichment analysis on the differentially expressed genes was performed. 
Based on the gene expression data profiles of HCC and GSE62232 in TCGA, a co-expression network was established using 
the WGCNA R package, and weighted gene co-expression network analysis (WGCNA ) was performed to select clinically 
significant modules and screen candidate Hub genes; the candidate Hub genes were further analyzed for significant differential 
expression in HCC tissues and normal liver tissues, and whether they were significantly correlated with the overall survival and 
disease-free survival of HCC patients. The hub genes were conclusively identified, and their protein expression was validated 
through the Human Protein Atlas database. Results The genetic expression data in this study were obtained from 50 normal liver 
tissue samples and 373 HCC tissue samples. Through differential gene expression analysis, a total of 7 230 genes differential 
expression between HCC and normal hepatic tissue, comprising 3 691 up-regulated genes and 3 539 down-regulated genes in 
HCC were identified. Enrichment analysis showed that the up-regulated differentially expressed genes were mainly involved in cell 
cycle regulation and mitotic processes; the down-regulated differentially expressed genes were mainly involved in processes such 
as small molecule metabolism and organic acid metabolism. WGCNA identified 19 gene modules related to the clinical features 
of HCC patients, the cyan and purple modules were screened by analyzing the relationship between the modules and the clinical 
features. The first two genes in the cyan module genes that were strongly associated with both overall survival and disease-free 
survival of patients were VPS45 and FAM189B. In the purple module genes, first two genes that were strongly associated with both 
overall survival and disease-free survival of patients were CLEC1B and FCN3, respectively; therefore, VPS45, FAM189B, 
CLEC1B and FCN3 were identified as the final Hub genes. Immunohistochemical staining in the Human Protein Atlas database 
showed that VPS45 and FAM189B were expressed higher in HCC tissues than in normal liver tissues. FCN3 was expressed in 
HCC tissues lower than in normal liver tissues, the difference in the expression of CLEC1B between HCC tissues and normal liver 
tissues was not obvious. Conclusion VPS45, FAM189B, CLEC1B and FCN3 have been preliminary identified as possible 
novel potential biomarkers for HCC, which may provide a theoretical basis for targeted therapy of HCC. 
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肝 细 胞 癌 (HCC ) 是 癌症 中 相关 死亡 的 第 三 大 原 
Pa)! ， 也 是 中 国 近年 来 癌症 相关 死亡 的 主要 原因 。 
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新 的 和 更 有 效 的 潜在 生物 标志 物 ， 用 于 癌症 的 治疗 和 患 
者 预后 "” 。 通 过 生物 信息 学 的 大 数据 分 析 ， 可 以 有 效 


HCC 在 所 有 原 发 性 肝癌 病例 中 占 90% 7) 。HCC 发 病 机 
制 的 主要 危险 因素 包括 慢性 乙 型 肝炎 病毒 (HBV ) 和 两 
型 肝炎 病毒 (HCV ) 感染 、 吸 烟 、 饮 洒 、 超 重 和 非 酒 精 
性 脂肪 性 肝病 (NAFLD ) 、 糖 尿 病 以 及 黄 曲霉 毒素 B1 
BARIO, ENRE DNA 损伤 ， 表 观 遗 传 改变 
和 癌症 相关 突变 ， 最 终 导 致 HCC HER. KB BUR 
者 确诊 时 已 是 晚期 。 尽 管 HCC 的 治疗 在 近 几 年 取得 很 
大 进展 ， 主 要 包括 经 导管 动脉 化 疗 栓塞 、 分 子 靶 向 治 
疗 、 消 融 治 疗 、 手 术 切 除 和 肝 移植 等 "1, 但 HCC 患 
者 的 5 年 生存 率 仍 然 很 低 “: ， 并 且 其 5 年 复发 率 高 达 
80%~90%， 预 后 较 差 '" 1 。HCC 发 生 和 发 展 的 确切 机 向 
ABE, Fuck, PARA HCC 发 生 、 发 展 的 分 子 机 制 ， 
开发 新 的 诊断 和 治疗 方法 来 改善 HCC 的 临床 结果 是 非 
常 迫切 和 必要 的 。 

近年 来 ， 随 着 高 通 量 测序 技术 不 断 发 展 ， 为 癌症 的 
基因 组 学 、 转 录 组 学 和 表 观 基因 组 学 的 特征 提供 了 新 的 
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HEA Bee, TURE TAH EP, 
加 权 基 因 共 表达 网 络 分 析 (weighted gene co-expression 
network analysis, WGCNA ) 是 一 种 先进 的 方法 ， 其 具有 
准确 和 高 效 的 广泛 基因 分 析 优 点 ， 用 于 基于 相似 的 基 
因 表 达 模 式 构建 共 表达 模块 ， 并 分 析 临 床 特征 模块 与 
不 同 基因 组 之 间 的 相关 性 '" 。WGCNA 已 被 广泛 用 于 
识别 不 同类 型 癌症 相关 的 临床 特征 模块 和 Hub 基因 。 
如 一 项 基于 WGCNA 人 研究 将 6 个 Hub 基因 和 人 肾 细胞 
癌 的 进展 以 及 患者 的 预后 联系 起 来 '"| ， 鉴 定 了 在 侵 
秦 性 肾上腺 皮质 恶性 肿瘤 中 高 表达 并 与 总 生存 期 呈 明 
显 负 相关 的 4 个 Hub 基因 (TOP2A、CHEK1、TTK 和 
CENPA ) [1 。 

本 人 研究 通过 差异 基因 表达 分 析 和 WGCCNA 对 从 
TCGA 和 GEO 数据 库 中 HCC 的 mRNA 数据 ， 在 表达 和 
功能 水 平 上 进行 分 析 。 然 后 进行 功能 富 集 分 析 ， 确 定 与 
HCC 患者 临床 特征 相关 的 模块 ， 以 了 解 这 些 共 表达 基 


研究 方法 。 表 达 谱 的 生物 信息 学 分 析 已 被 广泛 用 于 鉴定 


因 的 潜在 生物 学 功能 。 通 过 这 些 生物 信息 学 分 析 鉴 定 出 
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Hub 基因 ， 并 结合 生存 分 析 、HCC 组 织 和 正常 肝脏 组 
组 表达 差异 分 析 、 免 疫 组 织 化 学 染色 分 析 和 文献 分 析 进 
行 验 证 。 这 些 结果 将 有 助 于 临床 了 解 HCC 的 病因 和 淤 


在 的 分 子 机 制 ， 并 为 HCC 提供 新 的 治疗 靶 点 或 生物 标 


1 资料 与 方法 
1.1 数据 来 源 和 数据 处 理 

GSE62232 [HCC 对 应 81 例 患 者 。 在 所 有 病例 中 ， 
诊断 时 肝 切 除 后 肿瘤 样本 被 冷冻 ( -80 C), WHER 
肝脏 样本 作为 参考 样本 。 使 用 Affymetrix U133plus v2 阵 
列 (GPLS70 ) 进行 比较 基因 表达 分 析 ] 基因 表达 谱 来 
Å GEO ği JE JÆ (http: //www.ncbi.nlm.nih.gov/geo/ ) , 
# 于 GPL570 平 台 ( [ HG-U133_Plus_2] Affymetrix 
Human Genome U133 Plus 2.0 Array ) 。 从 TCGA 数据 
pe 3] (https: //www.cancer.gov/about—nci/organization/ 
ccg/research/structural—genomics/tcga ) 中 下 载 HCC 患者 
的 RNA 测序 数据 ( 50 个 正常 样本 和 373 个 HCC 样本 ) 、 
临床 信息 和 生存 信息 (59 个 正常 样本 和 379 个 HCC FE 
本 ) ， 患 者 临床 信息 数据 和 样本 量 见 表 1。 根 据 注 释文 
档 将 探 针 转化 为 基因 符号 ， 通 过 测定 所 有 对 应 探 针 的 中 
位 表达 值 , 去 除 同 一 基因 的 重复 探 针 。 根 据 处 理 的 结果 ， 
总 共有 11 627 个 基因 被 选中 用 于 后 续 分 析 。 


表 1 TCGA 数据 库 的 临床 信息 和 样本 


Table 1 Clinical information and samples from the TCGA database 


特征 合计 (N=438) ”生存 (N=266) ”死亡 (N=172 ) 

年 龄 (zts， 岁 ) 59.98+13.82 585841349 62.14 + 14.09 
EJS [M (MIN, MAX) ] pee A ou ous 
性 别 

x 146 (33.33 ) 79 (18.04 ) 67 (15.30) 

男 292 ( 66.67 ) 187 ( 42.69 ) 105 ( 23.97) 
微血管 侵犯 

T 248 (66.13) 162 ( 43.20) 86 (22.93) 

是 127 (33.87) 81 (21.60) 46 (12.27) 
体质 量 (Z+s，kg) 73.40 + 19.64 73.68 + 20.93 72.96 + 17.46 
体质 量 [MUMIN MAX) ] l oe see a a l a 
BMI>24 kg/m” 

否 185 (47.19) 116 (29.59 ) 69 (17.60 

是 207 (52.81) 132 (33.67) 75 (19.13 
TNM 分 期 (期 ) 

I 198 ( 49.01 ) 141 (34.90) 57 (14.11 

I 100 (24.75 ) 66 ( 16.34) 34 (8.42) 

Il 100 (24.75 ) 46 (11.39) 54 (13.37 

N 6 (149) 2 (0.50) 4 (0.99) 


注 :“ 表 示 数 据 有 缺失。 
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12 HCC 中 差异 表达 基因 的 筛选 

对 于 降 维 方法 UMAP， 首 先 使 用 R 软件 包 UMAP 

( version 0.2.7.0 ) 进行 分 析 ， 对 表达 谱 进 行 z-score， 再 

使 用 UMAP 函数 进行 降 维 分 析 以 获得 降 维 后 的 矩阵 。 
Limma (linear models for microarray data ) [14] 是 一 种 基 
于 广义 线性 模型 的 差异 表达 筛选 方法 ， 用 于 识别 正常 肝 
脏 组 织 和 HCC 组 织 之 间 的 差异 表达 基因 ， 在 此 处 使 用 
R 软件 包 limma ( version 3.40.6 ) 进行 差异 分 析 ， 以 获得 
正常 肝脏 组 织 与 HCC 组 织 的 差异 基因 。 获 取 的 表达 谱 
数据 集 ， 利 用 ImFit 函数 进行 多 元 线性 回归 分 析 ， 进 一 
步 使 用 eBays 函数 进行 分 析 ， 最 终 获 得 显著 性 差异 的 基 
o 
13 ”差异 表达 基因 的 功能 富 集 

对 于 基因 集 进 行 功能 富 集 分 析 ， 使 用 R 软 件 包 
org.Hs.eg.db ( version 3.1.0) 中 的 基因 GO 注释， 将 其 
作为 背景 把 基因 映射 到 背景 集合 中 ， 使 用 R 软件 包 
clusterProfiler ( version 3.14.3 ) 进行 富 集 分 析 ， 从 而 获取 
基因 集 富 集 的 结果 。 设 定 最 小 基因 集 为 5， 最 大 基因 集 
45.000, P<0.05 和 FDR<0.1 作为 显著 性 差异 。 
14 ”加 权 基 因 共 表达 网 络 分 析 

加 权 基 因 共 表达 网 络 分 析 是 一 种 分 析 多 个 样本 基因 
表达 模式 的 分 析 方 法 ， 其 可 以 将 具有 相似 表达 模式 的 基 
因 聚 类 ， 并 分 析 模 块 与 特定 性 状 或 表 型 之 间 的 关系 。 基 
于 TCGCA 中 HCC 和 GSE62232 的 基因 表达 数据 概况 ， 
使 用 WFCNA R 包 建 立 共 表达 网 络 。 以 基因 表达 谱 为 例 : 
首先 ， 利 用 基因 表达 谱 ， 去 除了 在 各 个 样本 中 标准 差 为 
0 的 基因 ， 利 用 R 软件 包 WGCCNA 的 goodSamplesGenes 
方法 去 除 离 群 的 基因 以 及 样本 ， 进 一 步 使 用 WGCNA 构 
建 一 个 无 标 度 共 表 达 网 络 。 具 体 而 言 ， 第 一 步 先 对 所 有 
成 对 基因 进行 皮尔 逊 相关 矩阵 和 平均 连锁 法 ， 然 后 使 
FA FE PK BY an= B (C,n=Gene_m 和 Gene_n) 之 间 
的 Pearson's 相关 ; FARE DNASE REA. B 是 一 个 软 
闵 值 参数 ， 其 可 以 强调 基因 之 间 的 强 相关 性 。 在 选择 
SWHZIA, WARE Ath ee IS ( Topological 
Overlap Matrix, TOM ) TOMi, j= (lij+aij ) / ( min ( ki+kj ) 
+l-aij) ， 该 矩阵 可 以 测量 一 个 基因 的 网 络 连 通 性 ， 该 
网 络 连通 性 定义 为 其 与 所 有 其 他 基因 的 邻接 之 和 ， 用 于 
网 络 基因 定量 ， 并 计算 相应 的 相 异 性 。 为 了 将 具有 相似 
表达 谱 的 基因 分 类 为 基因 模块 ， 根 据 基于 TOM 的 不 相 
似 性 度量 进行 平均 连锁 分 级 聚 类 ， 基 因 树 图 的 最 小 大 小 

(基因 组 ) 为 50。 此 外 还 合并 了 距离 <0.25 的 模块 ， 最 

终 获 得 了 19 个 共 表达 模块 ， 其 中 grey 模块 被 认为 是 无 
法 被 分 配给 任何 模块 的 基因 集合 。 
15 具有 临床 意义 的 模块 的 选择 和 HCC 中 的 Hub Æ 
的 鉴定 

首先 ， 主 成 分 分 析 用 于 描述 模块 特征 基因 ， 对 应 于 
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每 个 模块 内 所 有 基因 的 单一 特征 表达 谱 。 计 算 临 床 特征 
和 这 些 特 征 基因 之 间 的 相关 性 ， 以 确定 哪些 模块 具有 临 
床 意义 。 基 因 表 达 和 临床 特征 之 间 的 线性 关系 被 赋予 一 
个 基因 显 着 性 ， 等 于 单个 基因 了 值 的 对 数 。 如 果 基 因 显 
着 性 与 模块 成 员 密 切 相 关 ， 定 义 为 模块 的 特征 基因 与 个 
体 基因 表达 谱 之 间 的 相关 性 ， 从 而 得 出 结论 该 模块 的 中 
心 基因 与 HCC' 相关 , 将 这 些 基 因 视 为 候选 Hub 基因 。 
如 先前 研究 所 示 : 计算 与 基因 的 表达 相关 性 以 获得 
基因 显著 性 ， 同 时 计算 模块 特征 向 量 与 基因 的 表达 相关 
性 以 获得 模块 成 员 ， 根 据 截 止 标 准 ，76 个 在 临床 显著 
模块 中 具有 高 连接 性 的 基因 被 鉴定 为 候选 Hub 基因 。 
1.6 Hub 基因 的 基因 验证 和 生物 信息 学 验证 

使 用 GEPIA 在 线 网 站 ( http: //gepia.cancer—pku. 
cn/ ) 分 析 HCC 样本 中 Hub 基因 的 表达 水 平 ， 并 基于 
Kaplan-Meier 分 析 使 用 R 套件 中 的 生存 包 ( 版 本 : 3.2- 
7) 。 首 先 ， 从 TCGA 获得 359 个 HCC 肿瘤 样本 的 差异 
基因 表达 谱 和 预后 数据 ， 然 后 确定 每 个 基因 的 中 位 数 表 
达 值 ,根据 给 定 基 因 的 表达 水 平 是 高 于 还 是 低 于 中 位 数 ， 
样本 被 分 配 到 给 定 基因 的 “高 表达 ”或 “ 低 表达 ”组 。 
使 用 对 数 秩 检验 评估 高 表达 组 或 低 表 达 组 之 间 的 总 体 生 
存 期 和 无 病 生 存 期 的 显著 性 。 如 果 P<0.05， 认 为 该 基 
因 是 经 过 验证 的 Hub 基因 。 然 后 ， 根 据 来 自 TCGA 和 
GEPIA 网 站 上 的 数据 ， 筛 选 正 常 肝脏 组 织 和 HCC 组织 
之 间 Hub 基 因 表 达 的 差异 ,表达 水 平 通过 平均 值 归 一 化 ， 
FFAS P<0.05 相关 的 差异 被 认为 具有 统计 学 意义 。 
1.7 人 类 和 蛋白质 图 谱 数 据 库 对 Hub 基因 蛋白 表达 的 验 
证 


人 类 和 蛋白 质 图 谱 数 据 库 (https: //www.proteinatlas. 
org) 主要 用 于 为 提供 各 种 人 类 蛋白质 的 组 织 和 细胞 分 
布 信息 。 使 用 来 自 人 类 和 蛋白 质 图 谱 数据 库 的 免疫 组 织 化 
学 染色 结果 验证 了 HCC 组 织 和 正常 肝脏 组 织 之 间 生 存 
相关 基因 的 蛋白 质 表 达 。 
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， 黑 色 点 代表 HCC 和 正常 肝脏 组 织 之 间 没 有 显著 差异 的 基因 ， 


TE: A 为 主 成 分 分 析 : 红色 点 代表 肿瘤 组 织 ， 蓝 色 点 代表 正常 组 织 ， 
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2 结果 


2.1 数据 预 处 理 

本 研究 的 表达 数据 来 自 50 个 正常 肝脏 组 织 样本 和 
373 个 HCC 组 织 样本 。 基 于 主 成 分 分 析 从 数据 中 排除 
T 14 个 肿瘤 样本 (图 1A ) 。 最 终 来 自 这 409 个 样本 的 
基因 表达 谱 用 于 后 续 分 析 。 

2.2 HCC 样本 中 差异 表达 基因 的 鉴定 及 GO 富 集 分 析 

在 50 个 正常 样本 和 359 个 HCC 样本 之 间 共 鉴定 出 
7 230 个 差异 表达 基因 ， 差 异 表达 基因 火山 图 见 图 1B, 
包括 3 691 个 上 调 基 因 和 3 539 个 下 调 基 因 ， 差 异 分 析 
结果 见 表 2。 为 了 探索 差异 表达 基因 在 HCC 中 的 潜在 
生物 学 功能 ， 本 研究 对 其 进行 GO 富 集 分 析 。 

上 调 的 差异 表达 基因 主要 参与 细胞 周期 调控 、 有 丝 
分 裂 过 程 、 核 分 裂 和 染色 体 分 离 等 (图 2A、2C ); AAR, 
下 调 的 差异 表达 基因 主要 参与 对 外 刺激 反应 、 小 分 子 代 
谢 和 有 机 酸 代谢 等 过 程 (图 2B、2D ) 。 

比较 HCC 组 织 和 正常 肝脏 组 织 的 基因 表达 差异 ， 
获得 表达 数据 集 ， 根 据 差异 倍数 为 1.5 倍 ，P<0.05 为 显 
著 差 异 , 进一步 利用 lmFit 函数 进行 多 元 线性 回归 分 析 ， 
再 使 用 eBays 函数 进行 分 析 ， 最 终 获 得 每 个 基因 的 差异 
显著 性 ， 并 绘制 差异 表达 基因 热 图 。 


表 2 差异 分 析 结 果 统 计 摘要 


Table 2 Statistical summary of variance analysis results 


显著 性 ”12 信 差异 13 信 差异 15 信 差异 IPER 
BE 上调 TAO 上调 下 调 ”上调 下 调 上调 下 调 
P<0.05 6570 5070 5479 4491 3691 3539 1622 2063 
P<0.01 5942 4591 5109 4175 3594 3421 1613 2057 
FDR<0.05 6384 4912 5370 4392 3667 3502 1621 2061 
FDR<0.01 5687 4380 4953 4022 3526 3342 1604 2049 


È: A AIC 为 上 调 基 因 功 能 富 集 GO 分 析 的 气泡 图 和 圈 图 ; B 和 
D 为 下 调 基 因 功 能 富 集 GO 分 析 的 气泡 图 和 圈 图 。 
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绿色 点 代表 排除 的 HCC 样本 ; B 为 火山 图 : 绿色 点 代表 HCC 中 下 调 的 
红色 点 代表 HCC 中 上 调 的 基因 。 
鉴定 50 个 正常 肝脏 组 织 样本 和 359 个 HCC 组 织 样本 之 间 的 差异 表达 基因 


Figure 1 Differentially expressed genes were identified between 50 normal samples and 359 HCC samples 
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2 正常 样本 和 HCC 样本 之 间 的 差异 表达 基因 


Figure 2 Common differentially expressed genes were identified between normal and HCC samples 


2.3 WGCNA 和 关键 模块 的 识别 
加 权 基 因 共 表达 网 络 分 析 基 于 7 230 个 差异 表达 


与 HCC 之 间 具 有 高 度 负 相 关 ( cor=-0.80, P=5.6 x 10° 
”) 。 结 果 表 明 ， 青 色 模 块 可 能 促进 HCC 的 肿瘤 发 生 ， 


基因 的 表达 和 矩阵 和 409 个 HCC 样本 的 临床 数据 。 进 行 
聚 类 分 析 检 查 409 个 样本 的 数据 质量 ,结果 显示 所 有 
样本 在 聚 类 中 并 旦 在 截止 闵 值 内 ， 加 权 基 因 共 表达 网 
络 分 析 中 应 用 了 6 个 临床 变量 : 疾病 状态 (Tumor or 
Normal) 、 性 别 、 年 龄 、 体 质量 、TNM 分 期 和 微血管 
侵犯 (图 3A ) 。409 个 样本 分 为 两 个 复 ， 肿 瘤 和 正常 ， 
HCC 样本 的 临床 特征 和 数据 的 聚 类 树 状 图 (图 3B ) o 

为 了 构建 无 标 度 网 络 ， 将 软 阔 值 B 设置 为 5， 独 
立 度 设置 为 0.86， 平均 连通 性 接近 0 (AL 4A, 4B) 。 
模块 参数 设置 为 最 小 模块 30， 敏 感性 为 3， 模块 合并 阔 
值 为 0.25， 将 其 中 具有 相似 表达 模式 的 差异 表达 基因 聚 
集 到 相同 的 模块 中 ， 此 外 合并 距离 小 于 0.25 的 模块 ， 
最 终 获 得 了 19 个 共 表达 模块 ， 并 绘制 模块 特征 基因 热 
图 (图 4C) ， 其 中 grey 模块 是 无 法 被 分 配给 任何 模块 
的 基因 集合 。 

然后 尝试 评估 模块 与 临床 特征 之 间 的 关系 ， 发 现 
青色 模块 的 特征 基因 与 HCC 之 间 具 有 强烈 的 正 相 关 
(cor=0.64, P=3.6x 10°) ， 而 紫色 模块 的 特征 基因 


而 紫色 模块 可 能 会 预防 HCC。 因 此 ， 分 析 青 色 模 块 和 
紫色 模块 的 Hub 基因 。 
24 从 青色 和 紫色 模块 中 识别 候选 Hub 基因 

MM 和 GS 分 数 在 青色 和 紫色 模块 中 彼此 呈正 相 
关 ( 图 5) 。 青 色 模 块 中 选择 Hub 基因 的 标准 相对 
{IGF br YE AE (AE (MM>0.8) 。 在 青色 模块 中 ， 选 
FE 满足 “cor.gene Module Membership” >0.7 FI “cor. 
gene Trait Significance” >0.5 Fd {A AY AY 8 + H A, 
分 m| 为 TOMM40L, VPS45, MSTO1, FAM189B, 
TTC13, PYGO2, NVL 和 EHMT2。 在 紫色 模块 中 ， 
选择 满足 “cor.gene Module Membership” >0.8 和 “cor. 
gene Trait Significance” >0.7 国 值 的 前 16 个 基因 ， 
分 别 为 CLEC4M、BMP10、CLEC1B、CLEC4G、 
GDF2、NDST3、BMPER、STAB2、CCL23、CHRM2、 
COL6A6、CRHBP、FCN3 和 CCBE1。 
2.5 Hub 基因 表达 及 其 与 生存 的 相关 性 

基于 GEPIA2 在 线 数据 库 中 肿瘤 样本 的 表达 数据 和 
临床 信息 ， 分 析 青 色 模 块 中 识别 的 基因 和 紫色 模块 中 识 
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Figure3 Genetic clustering maps of clin 


别 的 基因 的 表达 与 患者 生存 之 间 的 潜在 关联 (图 6) 。 
青色 模块 基因 中 仅 与 患者 总 生存 期 强烈 相关 的 前 3 个 基 
因 分别 为 TOMM40L、VPS45 和 FAM189B; 青色 模块 基 
因 中 同时 与 患者 总 生存 期 和 无 病 生 存 期 强烈 相关 的 前 
两 个 基因 为 VPS45 和 AM189B。 紫 色 模 块 基因 中 仅 与 
患者 总 生存 期 强烈 相关 的 前 3 个 基因 分 别 为 CLEC1B、 
CCL23 和 FCN3; 紫色 模块 基因 中 同时 与 患者 总 生存 期 
和 无 病 生 存 期 强烈 相关 的 前 两 个 基因 分 别 为 CLEC1B 和 
FCN3。 因 此 ， 将 VPS45, FAMI89B, CLEC1B 和 FCN3 
确定 为 最 终 的 Hub 基因 。 两 个 模块 中 与 无 病 生存 期 有 
显著 差异 的 基因 有 VPS45, FAM189B, CLECIB, FCN3 
和 BMPER 。 

使 用 GEPIA 网 站 ， 分 析 这 些 模块 基因 在 HCC 组 织 
和 正常 组 织 之 间 表 达 情 况 ( 图 7) ， 结 果 显 示 ，VPS45 
All FAM189B 在 HCC 组 织 中 上 调 ， 而 CLEC1B 和 FCN3 
在 HCC 组 织 中 下 调 。 使 用 CEO 数据 库 的 数据 获得 了 类 


共 表 达 网 络 分 析 ， 红 色 代 表 变 量 “Tumor-Normal” 的 “肿瘤 ”， 变 量 “ 体 质量 ”， 变 量 “ 性 别 ” 的 “女性 ”或 “男性 ”， 
红色 的 颜色 程度 与 值 呈正 比 ; B 为 聚 类 树 状 图 。 

图 3 HCC 样本 的 临床 特征 
ical features and data of HCC samples 


和 数据 的 基因 聚 类 网 


似 的 结 
2.6 ”免疫 组 织 化 学 染色 验证 

从 人 类 和 蛋白 质 图 谱 (The Human Protein Atlas, 
HPA) 数据 库 ‘'7] ( 网 址 : Human Protein Atlas 
proteinatlas.org ) 中 获得 的 免疫 组 织 化 学 染色 显示 : 
VPS45 和 FAM189B 在 HCC 组 织 中 的 表达 高 于 正常 肝脏 
组 织 , 而 FCN3 在 HCC 组 织 中 的 表达 低 于 正常 肝脏 组 织 ， 
CLECIB 在 HCC 组 织 和 正常 肝脏 组 织 中 表达 差异 不 明 
显 ( 图 8)。 
3 讨论 

HCC 筛 查 指 对 符合 HCC 高 风险 的 患者 定期 进行 检 
查 , 其 目标 是 在 早期 时 间 检 测 出 HCC 并 予以 及 时 干预 ， 
使 患者 存活 率 和 生存 质量 提高 。 在 HCC 的 临床 应 用 中 ， 
常见 的 传统 筛 查 方式 包括 肝脏 超声 检查 和 血清 甲 胎 蛋 
白 ， 其 敏感 性 和 特异 性 相对 有 限 。 因 此 ， 开 发 出 新 的 更 
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图 4 共 表 达 模 块 


Figure 4 Coexpression module 
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Figure 5 Correlation between module characteristics and module genes 
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X BMPER, K% STAB2, LX COL6A6; 红线 代表 基因 表达 高 的 样本 ， 蓝 线 代 表 基 因 表 达 低 的 样本 。 
6 HCC 组 织 中 青色 和 紫色 模块 基因 表达 与 患者 总 生存 期 的 关系 


Figure 6 Relationship between cyan and purple module gene expression and overall survival of patients with HCC 
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7 TCGA 数据 库 中 青色 和 紫色 模块 基因 在 HCC 组 织 及 正常 肝 组 织 中 表达 水 平 


Figure 7 Expression levels of cyan and purple module genes in HCC tissues and normal liver tissues in TCGA database 


准确 的 检测 方式 十 分 具有 临床 应 用 价值 。 目 前 研究 表 
明 几 个 基因 已 被 确定 为 HCC 诊断 的 新 型 生物 标志 物 。 
例如 ， 长 链 非 编码 RNA KDM4A-AS1 在 许多 肿瘤 中 过 
度 表 达 ， 尤 其 是 在 HCC 中 ， 长 链 非 编 码 RNA KDM4A- 
ASI 水 平 与 疾病 分 期 和 肿瘤 分 级 呈正 相关 ， 与 患者 生存 
AE! | LV °°) 研究 显示 BAI3 和 CKAP2L 可 
能 是 结 直肠 瘤 的 潜在 预后 因子 和 治疗 靶 点 。 

在 这 项 研究 中 ， 将 差异 表达 基因 和 加 权 基 因 共 表达 
网 络 结合 起 来 ， 以 提高 识别 HCC 相关 基因 的 能 力 。 差 
异 基 因 功 能 富 集 显 示 ， 主 要 参与 细胞 周期 调控 的 基因 在 
HCC 组 织 中 失调 ， 与 近 些 年 相关 研究 结果 一 致 .1 E 
常 细胞 周期 的 亲 乱 是 导致 癌症 的 原因 之 一 ， 靶 癌 调 节 癌 
细胞 周期 是 一 种 潜在 的 治疗 方法 '*"1。 生 物 信息 学 分 析 
基于 TCGA 和 GEO 数据 库 ， 分 析 在 HCC 中 重要 模块 和 
Hub 基因 ， 确 定 了 两 个 关键 模块 ， 分 别 为 青色 模块 和 紫 
色 模 块 。 分 析 这 两 个 模块 基因 与 患者 总 生存 期 和 无 病 生 
存 期 的 相关 性 ， 选 择 了 青色 模块 中 显著 相关 的 前 两 个 基 
因 VPS45 和 FAM189B， 选 择 了 紫色 模块 中 显著 相关 的 
前 两 个 基因 CLECIB 和 FCN3， 这 4 个 基因 作为 人 选 的 


Hub 基因 。 

VPS45 缺陷 型 中 性 粒 细胞 和 成 纤维 细胞 表面 的 B1 
整合 素 水 平 降低 ，VPS45 缺陷 型 成 纤维 细胞 运动 能 力 受 
损 和 细胞 凋 亡 增加 '*]。 另 外 有 研究 显示 VPS45 的 表达 
水 平和 多 种 癌症 相关 ， 比 如 YAMANOI 等 ' 引 研究 表明 
VPS45 表达 水 平和 恶性 肿瘤 卵巢 癌 相 关 。FAM189B 又 
称 为 COTE1， 通 过 机 制 分 析 表 明 ，FAM189B 可 以 与 肿 
瘤 抑 制 因子 结构 域 氧 化 还 原 酶 发 生物 理 关 联 ，FAM189B 
与 HCC 细胞 的 侵袭 密切 相关 '*i; FAM189B 蛋白 和 
mRNA 的 过 表达 可 能 会 增加 胃癌 的 发 生 率 ， 并 且 细 胞 
周期 的 通路 是 其 KEGG 富 集 分 析 最 具有 显著 差异 的 通 
BRS! 。CLEC1B 是 C 型 凝集 素 结构 域 家族 1 成员， 并 
且 其 与 肝 细 胞 癌 的 免疫 浸润 相关 ， 过 表达 的 CLEC1B fil 
制 HuH7 细胞 的 增殖 和 迁移 能 力 '“ 。FCN3 是 一 种 分 
泌 型 凝集 素 ， 能 够 激活 补体 通路 ，FCN3 的 异 位 表达 能 
够 激活 内 质 网 应 激 未 折合 和 蛋白， 抑制 内 质 网 应 激 反 应 
可 提高 肺 腺 癌 细 胞 的 存活 率 ，FCN 通过 诱导 内 质 网 应 
激发 挥 抑 癌 作 用 '”! 。 本 研究 方法 具有 数据 挖掘 的 局 限 
性 ,研究 所 用 数据 来 源 于 网 络 数据 库 ， 数 据 样本 可 能 存 
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Figure 8 Immunohistochemical staining of modular genes 


组 织 ， 右 侧 为 HCC 组织。 


在 偏 位 ， 测 序 结果 在 技术 上 可 能 存在 偏差 .为 了 提高 
a 吉 果 的 可 靠 性 ， 使 用 人 类 蛋白质 图 谱 的 免疫 组 

学 数据 进行 确认 ， 然 而 由 于 数据 库 的 限制 ， 无 法 获 
Dt el 
据 。 获 得 的 Hub 基因 在 肝癌 预后 中 的 分 子 调节 机 制 还 
需要 进一步 通过 临床 数据 和 基础 实验 来 证 实 ， 其 可 能 作 
为 肝癌 早期 筛 查分 子 标志 物 、 预 后 分 子 标志 物 及 肝 瘤 治 
疗 外 点 ， 为 人 群 第 查 或 肝癌 患者 治疗 提供 帮助。 

总 之 ， 本 研究 进行 了 全 面 的 生物 信息 学 分 析 ， 以 确 
ee ee te en et 
本 研究 结果 表明 ,VPS45、FAM189B、CLEC1B 和 FCN3 
可 外 pe de eet 具有 特殊 临床 意 


义 ， 然 而 需要 在 大 量 临 床 样本 中 得 到 真实 验证 ， 未 来 进 
作者 贡献 : 陈 超 提 出 研究 目标 ， 负 责 数 据 分 析 和 写 


作 ; 陈 天 翔 负责 数据 验证 ; 刘 钱 伟 、 张 秩 、 王 欢 欢 、 高 
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